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(57) Abstract 

The invention relates to human nucleic acid sequences (mRNA, cDNA, genomic sequences) of endometrium tumour tissue, coding 
for genetic products or parts thereof, in addition to the use thereof. The invention also relates to the polypeptides obtained according to 
said sequences and to the use thereof. 



(57) Zusanunenfassung 

Es werden menschliche Nukleinsauresequenzen-mRNA, cDNA, genomische Sequenzen - aus Endometriumtumor, die filr Genpro- 
dukte oder Teile davon kodieren, und deren Verwendung beschrieben. Es werden weiterhin die uber die Sequenzen erhaltlichen Polypeptide 
und deren Verwendung beschrieben. 
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Menschlich Nukl insaures qu nzen aus End m triumtumorgew b 

Die Erfindung betrifft menschliche Nukleinsauresequenzen aus Endometriumtumor, 
5 die fur Genprodukte Oder Teile davon kodier n, deren funktionale Gene, die 
mindestens ein biologisch aktives Polypeptid kodieren und deren Verwendung. 
Die Erfindung betrifft weiterhin die Qber die Sequenzen erhaitlichen Polypeptide und 
deren Verwendung. 

10 Eine Krebstodesursachen bei Frauen ist der Endometriumtumor, fur dessen 
Bekampfung neue Therapien notwendig sind. Bisher verwendete Therapien, wie z.B. 
Chemotherapie, Hormontherapie oder chirugische Entfernung des Tumorgewebes, 
fuhren haufig nicht zu einer vollstandigen Heilung. 

is Das Phanomen Krebs geht haufig einher mit der Ober- oder Unterexpression 
gewisser Gene in den entarteten Zellen, wobei noch unklar ist, ob diese veranderten 
Expressionsraten Ursache oder Folge der malignen Transformation sind. Die 
Identifikation solcher Gene ware ein wesentlicher Schritt fur die Entwicklung neuer 
Therapien gegen Krebs. Der spontanen Entstehung von Krebs geht haufig eine 

20 Vielzahl von Mutationen voraus. Diese konnen verschiedenste Auswirkungen auf das 
Expressionsmuster in dem betroffenen Gewebe haben, wie z.B. Unter- oder 
Uberexpression, aber auch Expression verkurzter Gene. Mehrere solcher 
Veranderungen durch solche Mutationskaskaden kSnnen schlielilich zu bosartigen 
Entartungen fQhren. Die Komplexitat solcher Zusammenhange erschwert die 

25 experimented Herangehensweise sehr. 

Fur die Suche nach Kandidatengenen, d.h. Genen, die im Vergleich zum 
Tumorgewebe im normalen Gewebe starker exprimiert werden, wird eine Datenbank 
verwendet, die aus sogenanten ESTs besteht. ESTs (Expressed Sequence Tags) 

30 sind Sequenzen von cDNAs, d.h. revers transkribierten mRNAs, den Molekulen also, 
die die Expression von Genen widerspiegeln. Die EST-Sequenzen werden fur 
normale und entartete Gewebe ermittelt. Solche Datenbanken werden von 
verschiedenen Betreibern z.T. kommerziell angeboten. Die ESTs der LifeSeq- 
Datenbank, die hier verwendet wird, sind in der Regel zwischen 150 und 350 

35 Nukleotide lang. Sie representieren ein fur ein bestimmtes Gen unverkennbares 
Muster, obwohl dieses Gen normalerweise sehr viel langer ist ( > 2000 Nukleotide). 
Durch Vergleich der Expressionsmuster von normalen und Tumorgewebe konnen 
ESTs identifiziert werden, die Air die Tumorentstehung und -proliferation wichtig sind. 
Es besteht jedoch folgendes Problem: Da durch unterschiedliche Konstruktionen der 

40 cDNA-Bibliotheken die gefundenen EST-Sequenzen zu unterschiedlichen Regionen 
eines unbekannten Gens gehOren kfinnen, ergabe sich in einem solchen Fall ein 
vOllig falsches Verhaitnis des Vorkommens dieser ESTs in dem jeweiligen Gewebe. 
Dieses wQrde erst bemerkt werden, wenn das vollstandige Gen bekannt ist und somit 
die ESTs dem gleichen Gen zugeordnet werden konnen. 

45 Es wurde nun gefunden, da(i diese Fehlermdglichkeit verringert werden kann, wenn 
zuvor samtliche ESTs aus dem jeweiligen Gewebstyp assembliert werden, bevor die 
Expressionsmuster miteinander verglichen werden. Es wurden also uberlappende 
ESTs ein und desselben Gens zu langeren Sequenzen zusammengefaftt (s. Fig. 1, 
Fig. 2a und Fig.3). Durch diese Veriangerung und damit Abdeckung eines wesentlich 

50 grofteren Genbereichs in jeder der jeweiligen Banken sollte der oben beschriebene 
Fehler weitgehenst vermieden werden. Da es hierzu keine bestehenden 
Softwareprodukte gab, wurden Programme fOr das Assemblieren von genomischen 
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Abschnitten verwendet.'die abgewandelt eingesetzt und durch eigene "Programme 
erganzt wurden. Ein Flowchart der Assemblierungsprozedur ist in Fig. 2b1 - 2b4 
dargestellt. 

5 Es konnten nun die Nukleinsaure-Sequenzen Seq. ID No 1 bis Seq. ID No.141 und 
Seq. ID No 531-552, 554, 555 gefunden werden, die als Kandidatengene beim 
Endometriumtumor eine Rolle spielen. 

Von besonderem Interesse sind die Nukleinsaure-Sequenzen Seq. ID Nos. 1-126 
10 und Seq. ID No 531-552, 554, 555. 

Die Erfindung betrifft somit Nukleinsaure-Sequenzen, die ein Genprodukt oder ein 
Teil davon kodieren, umfassend 

15 

a) eine Nukleinsaure-Sequenz, ausgewahlt aus der Gruppe der 
Nukleinsaure-Sequenzen Seq ID Nos. 1-126 und Seq. ID No 531-552, 
554, 555. 

20 

b) eine allelische Variation der unter a) genannten Nukleinsaure- 
Sequenzen 

oder 

25 

c) eine Nukleinsaure-Sequenz, die komplementar zu den unter a) oder b) 
genannten Nukleinsaure-Sequenzen ist. 



30 Die Erfindung betrifft weiterhin eine Nukleinsaure-Sequenz gemaft einer der 
Sequenzen Seq ID Nos 1-126 oder eine komplementare oder allelische Variante 
davon und die Nukleinsaure-Sequenzen davon, die eine 90%ige bis 95% ige 
Homologie zu einer humanen Nukleinsaure-Sequenz aufweisen. 

35 Die Erfindung betrifft auch die Nukleinsaure-Sequenzen Seq. ID No. 1 bis Seq. ID 
No. 141 und Seq. ID No 531-552, 554, 555, die im Endometriumtumor erhfiht 
exprimiert sind. 

Die Erfindung betrifft ferner Nukleinsaure-Sequenzen, umfassend einen Teil der 
40 oben genannten Nukleinsaure-Sequenzen, in soich einer ausreichenden Grblie, daft 
sie mit den Sequenzen Seq. ID Nos 1-126 und Seq. ID No 531-552, 554, 555 
hybridisieren. 

Die erfindungsgemaften Nukleinsaure-Sequenzen weisen im allgemeinen eine 
45 Lange von mindestens 50 bis 4500 bp, vorzugsweise eine Lange von mindestens 
150 bis 4000 bp, insbesondere eine Lange von 450 bis 3500 bp auf. 

Mit den erfindungsgemaften Teilsequenzen Seq. ID Nos. 1-126 und Seq. ID No 531- 
552, 554, 555 konnen gemaft gangiger Verfahrenspraxis auch Expressionskassetten 
50 konstruiert werden, wobei auf der Kassette mindestens eine der erfindungsgemaften 
Nukleinsaure-Sequenzen zusammen mit mindestens einer dem Fachmann allgemein 
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bekannten Kontroll- oder regulatorischen Sequenz, wie z. B. einem geeigneten 
Promotor, kornbiniert wird. Die erfindungsgemaiJen Sequenzen konnen in sense 
oder antisense Orientierung eingefGgt sein. 

5 In der Literatur sind ist eine grade Anzahl von Expressionskassetten bzw. Vektoren 
und Promotoren bekannt, die verwendet werden kfinnen. 

Unter Expressionskassetten bzw. Vektoren sind zu verstehen: 1 . bakterielle, wie z. 
B., phagescript, pBs, <(>X174, pBluescript SK, pBs KS, pNH8a, pNH16a f pNH18a, 
10 pNH46a (Stratagene), pTrc99A, pKK223-3, pKK233-3, pDR540, pRIT5 (Pharmacia), 
2. eukaryontische, wie z. B. pWLneo, pSV2cat, pOG44, pXT1, pSG (Stratagene), 
pSVK3, pBPV, pMSG, pSVL (Pharmacia). 

Unter Kontroll- oder regulatorischer Sequenz sind geignete Promotoren zu 
is verstehen. Hierbei sind zwei bevorzugte Vektoren der pKK232-8 und der PCM7 
Vektor. Im einzelnen sind folgende Promotoren gemeint: lad, lacZ, T3, T7, gpt, 
lambda Pr, trc, CMV, HSV Thymidin-Kinase, SV40, LTRs aus Retrovirus und Maus 

Metallothionein-I. 

20 Die auf der Expressionskassette befindlichen DNA-Sequenzen konnen ein 
Fusionsprotein kodieren, das ein bekanntes Protein und ein biologisch aktives 
Polypeptid-Fragment umfalit. 

Die Expressionskassetten sind ebenfalls Gegenstand der vorliegenden Erfindung. 

25 

Die erfindungsgemaiJen Nukleinsaure-Fragmente kfinnen zur Herstellung von 
Vollangen-Genen verwendet werden. Die erhSItlichen Gene sind ebenfalls 
Gegenstand der vorliegenden Erfindung. 

30 Die Erfindung betrifft auch die Verwendung der erfindungsgemaiien Nukleinsaure- 
Sequenzen, sowie die aus der Verwendung erhSltlichen Gen-Fragmente. 

Die erfindungsgemalSen NukleinsSure-Sequenzen konnen mit geeigneten Vektoren 
in Wirtszellen gebracht werden, in denen als heterologer Teil die auf den 
35 Nukleinsaure-Fragmenten enthaltene genetischen Information befindet, die 
exprimiert wird. 

Die die NukleinsSure-Fragmente enthaltenden Wirtszellen sind ebenfalls Gegenstand 
der vorliegenden Erfindung. 

40 

Geeignete Wirtszellen sind z. B. prokaryontische Zellsysteme wie E. coli oder 
eukaryontische Zellsysteme wie tierische oder humane Zellen oder Hefen. 

Die erfindungsgemaflen Nukleinsaure-Sequenzen kSnnen in sense oder antisense 
45 Form verwendet werden. 

Die Herstellung der Polypeptide oder deren Fragment erfolgt durch Kultivierung der 
Wirtszellen gemSft gangiger Kultivierungsmethoden und anschlieBender Isolierung 
und Aufreinigung der Peptide bzw. Fragmente, ebenfalls mittels gangiger Verfahren. 
50 Die Erfindung betrifft femer Nukleinsaure-Sequenzen, die mindestens eine 
Teilsequenz eines biologisch aktiven Polypeptids kodieren. 
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Ferner betrifft die vorliegende Erfindung Polypeptid-Teilsequenzen, sogenannte ORF 
(open-reading-frame)-Peptide, gemaii den Sequenzprotokollen Seq. ID Nos 142-528 
und Seq. ID Nos. Seq. 561-575, 577-625, 630-635. 

5 

Die Erfindung betrifft ferner die Polypeptid-Sequenzen, die mindestens eine 80%ige 
Homologie, insbesondere eine 90%ige Homologie zu den erfindungsgemalien 
Polypeptid-Teilsequenzen der ORF. ID Nos. 142-528 und Seq. ID Nos. ORF 561- 
575, 577-625, 630-635 aulweisen. 

10 

Die Erfindung betrifft auch Antikflrper, die gegen ein Polypeptid oder Fragment davon 
gerichtete sind, welche von den erfindungsgemalien Nukleinsauren der Sequenzen 
Seq. ID No. 1 bis Seq. ID 141 und Seq. ID No 531-552, 554, 555 kodiert werden. 

is Unter Antikorper sind insbesondere monoklonale Antikorper zu verstehen. 

Die erfindungsgemafien Antikorper konnen u.a. durch ein Phage Display Verfahren 
identifiziert werden. Auch diese Antikorper sind Gegenstand der Erfindung. 

20 Die erfindungsgemalien Polypeptid-Teilsequenzen konnen in einem Phage Display 
Verfahren verwendet werden. Die mit diesem Verfahren identifizierten Polypeptide, 
die an die erfindungsgemalien Polypeptid-Teilsequenzen binden, sind auch 
Gegenstand der Erfindung. 

25 Ebenso kbnnen die erfindungsgemalien Nukleinsaure-Sequenzen in einem Phage 
Display Verfahren verwendet werden. 

Die erfindungsgemalien Polypeptide der Sequenzen Seq. ID Nos. 142-528 und Seq. 
ID Nos. Seq. 561-575, 577-625, 630-635 kOnnen auch als Tool zum Auffinden von 
30 Wirkstoffen gegen den Endometriumtumor verwendet werden, was ebenfalls 
Gegenstand der voriiegenden Erfindung ist. 

Ebenfalls Gegenstand der voriiegenden Erfindung ist die Verwendung der 
Nukleinsaure-Sequenzen gemafi den Sequenzen Seq. ID No. 1 bis Seq. ID No. 141 
35 und Seq. ID No 531-552, 554, 555 zur Expression von Polypeptiden, die als Tools 
zum Auffinden von Wirkstoffen gegen den Endometriumtumor verwendet werden 
kOnnen. 

Die Erfindung betrifft auch die Verwendung der gefundenen Polypeptid- 
40 Teilsequenzen Seq. ID No. 142-528 und Seq. ID Nos. Seq. 561-575, 577-625, 630- 
635 als Arzneimittel in der Gentherapie zur Behandlung gegen den Uterustumor, 
bzw. zur Herstellung eines Arzneimittels zur Behandlung gegen den Uterustumor. 

Die Erfindung betrifft auch Arzneimittel, die mindestens eine Polypeptid-Teilsequenz 
45 Seq. ID No. 142-528 und Seq. ID Nos. Seq. 561-575, 577-625, 630-635 enthalten. 

Die gefundenen erfindungsgemalien Nukleinsaure-Sequenzen kOnnen auch 
genomische oder mRNA-Sequenzen sein. 

50 Die Erfindung betrifft auch genomische Gene, ihre Exon- und Intronstruktur und 
deren Spleilivarianten, erhaitlich aus den cDNAs der Sequenzen Seq. ID No. 1 bis 
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Seq. ID No. 141 und Seq. ID No 531-552, 554, 555, sowie deren Verwendung 
zusammen mit geeigneten regulativen Elementen, wie geeigneten Promotoren und/ 
oder Enhancern. 

5 Mit den erfindungsgemafien Nukleinsauren (cDNA-Sequenzen) Seq. ID No. 1-141 
und Seq. ID No 531-552, 554, 555 werden genomische BAC-, PAC- und Cosmid- 
Bibliotheken gescreent und tiber komplementare Basenpaarung (Hybridisierung) 
spezifisch humane Klone isoliert. Die so isolierten BAC, PAC- und Cosmid-Klone 
werden mit Hilfe der Fluoreszenz-in-situ-Hybridisation auf Metaphasenchromosomen 

10 hybridisiert und entsprechende Chromosomenabschnitte identifiziert, auf denen die 
entsprechenden genomischen Gene liegen. BAC-, PAC- und Cosmid-Klone werden 
sequenziert, urn die entsprechenden genomischen Gene in ihrer vollstandigen 
Struktur (Promotoren, Enhancer, Silencer, Exons und Introns) aufzukiaren. BAC-, 
PAC- und Cosmid-Klone konnen als eigenstandige Molekule fur den Gentransfer 

is eingesetzt werden (s. Fig. 5). 

Die Erfindung betrifft auch BAC-, PAC- und Cosmid-Klone, enthaltend funktionelle 
Gene und ihre chromosomale Lokalisation, entsprechend den Sequenzen Seq. ID. 
No. 1 bis Seq. ID No. 141 und Seq. ID No 531-552, 554, 555, zur Verwendung als 
Vehikel zum Gentransfer. 
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15 



20 



B d utungen von Fachb griffen und Abkurzungen 

Nukleinsauren= 



ORF = 



10 Contig = 



Singleton= 
Modul = 

N = 
X = 



Unter Nukleinsauren sind in der voliegenden Erfindung zu 
verstehen: mRNA, partielle cDNA. vollangen cDNA und 
genomische Gene (Chromosomen). 

Open Reading Frame, eine definierte Abfolge von Aminosauren, 
die von der cDNA-Sequenz abgeleitet werden kann. 

eine Menge von DNA-Sequenzen, die aufgrund sehr grolier 
Ahnlichkeiten zu einer Sequenz zusammengefaftt werden 
konnen (Consensus) 

ein Contig, der nur eine Sequenz enthait 

Domane eines Proteins mit einer definierten Sequenz, die eine 
strukturelle Einheit darstellt und in unterschiedlichen Proteinen 
vorkommt 

wahlweise das Nukleotid A, T, G Oder C 

wahlweise eine der 20 natQrlich vorkommenden Aminosauren 



25 Erklarung zu den Alignmentparametern 

minimal initial match= minimaler anfanglicher Identitatsbereich 

maximum pads per read= maximale Anzahl von Insertionen 
maximum percent mismatch= maximale Abweichung in % 



30 



35 



40 



45 



50 



Erklarung der Abbildungen 

Fig. 1 



Fig. 2a 
Fig. 2b1-2b4 
Fig. 3 

Fig. 4a 

Fig. 4b 
Fig. 5 



zeigt die systematische Gen-Suche in der Incyte LifeSeq 
Datenbank. 

zeigt das Prinzip der EST-Assemblierung 

zeigt das gesamte Prinzip der EST-Assemblierung 

zeigt die in silico Subtraktion der Genexpression in 
verschiedenen Geweben 

zeigt die Bestimmung der gewebsspezifischen Expression uber 
elektronischen Northern. 

zeigt den elektronischen Northern 

zeigt die Isolierung von genomischen BAC- und PAC-Klonen. 
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Die nachfolgenden Beispiele erlautern die Herstellung der erfindungsgemaften 
Nukleinsaure-Sequenzen, ohne die Erfindung auf diese Beispiele und Nukleinsaure- 
Sequenzen zu beschranken. 

5 

Beispiel 1 

Suche nach Tumor-bezogenen Kandidatengenen 

10 

Zuerst wurden samtliche ESTs des entsprechenden Gewebes aus der LifeSeq- 
Datenbank (vom Oktober 1997) extrahiert. Diese wurden dann mittels des 
Programms GAP4 des Staden-Pakets mit den Parametern 0% mismatch, 8 pads per 
read und einem minimalen match von 20 assembliert. Die nicht in die GAP4- 

15 Datenbank aufgenommenen Sequenzen (Fails) wurden erst bei 1% mismatch und 
dann nochmals bei 2% mismatch mit der Datenbank assembliert. Aus den Contigs 
der Datenbank, die aus mehr als einer Sequenz bestanden, wurden 
Consensussequenzen errechnet. Die Singletons der Datenbank, die nur aus einer 
Sequenz bestanden, wurden mit den nicht in die GAP4-Datenbank aufgenommenen 

20 Sequenzen bei 2% mismatch erneut assembliert. Wiederum wurden fur die Contigs 
die Consensussequenzen ermittelt. Alle ubrigen ESTs wurden bei 4% mismatch 
erneut assembliert. Die Consensussequenzen wurden abermals extrahiert und mit 
den vorherigen Consensussequenzen sowie den Singletons und den nicht in die 
Datenbank aufgenommenen Sequenzen abschlieftend bei 4% mismatch assembliert. 

25 Die Consensussequenzen wurden gebildet und mit den Singletons und Fails als 
Ausgangsbasis fur die Gewebsvergleiche verwendet. Durch diese Prozedur konnte 
sichergestellt werden, daft unter den verwendeten Parametern samtliche Sequenzen 
von einander unabhangige Genbereiche darstellten. 

30 Fig. 2b1-2b4 veranschaulicht die VerlSngerung der Uterusgewebe ESTs. 

Die so assemblierten Sequenzen der jeweiligen Gewebe wurden anschlieliend 
mittels des gleichen Programms miteinander verglichen (Fig. 3). Hierzu wurden erst 
alle Sequenzen des ersten Gewebes in die Datenbank eingegeben. (Daher war es 
35 wichtig, daft diese voneinander unabhangig waren.) 

Dann wurden alle Sequenzen des zweiten Gewebes mit alien des ersten verglichen. 
Das Ergebnis waren Sequenzen, die fQr das erste bzw. das zweite Gewebe 
spezifisch waren, sowie welche, die in beiden vorkamen. Bei Letzteren wurde das 
40 Verhaltnis der Haufigkeit des Vorkommens in den jeweiligen Geweben ausgewertet. 
Samtliche, die Auswertung der assemblierten Sequenzen betreffenden Programme, 
wurden selbst entwickelt 

Alle Sequenzen, die mehr als viermal in jeweils einem der verglichenen Gewebe 
vorkamen, sowie alle, die mindestens fiinfmal so haufig in einem der beiden Gewebe 

45 vorkamen wurden weiter untersucht. Diese Sequenzen wurden einem elektronischen 
Northern (s. Beispiel 2.1) unterzogen, wodurch die Verteilung in samtlichen Tumor- 
und Normal-Geweben untersucht wurde (s. Fig. 4a und Fig. 4b). Die relevanten 
Kandidaten wurden dann mit Hilfe samtlicher Incyte ESTs und alien ESTs offentlicher 
Datenbanken verlangert (s. Beispiel 3). Anschlieliend wurden die Sequenzen und 

50 ihre Obersetzung in mOgliche Proteine mit alien Nukleotid- und Proteindatenbanken 
verglichen, sowie auf mogliche, fur Proteine kodierende Regionen untersucht. 
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Algorithmus zur Identifikation und VerlSngerung von partiellen cDNA- 
5 Sequenzen mit verandertem Expressionsmuster 

Im folgenden soil ein Algorithmus zur AufRndung Uber- Oder unterexprimierter Gene 
eriautert werden. Die einzelnen Schritte sind der besseren Obersicht halber auch in 
einem FluRdiagramm zusammengefaflt (s. Fig. 4b). 



2.1 Elektronischer Northern-Blot 

Zu einer partiellen DNA-Sequenz S, z. B. einem einzelnen EST Oder einem Contig 
15 von ESTs, werden mittels eines Standardprogramms zur Homolgiesuche, z. B. 
BLAST (Altschul, S. F. f Gish W M Miller, W.. Myers, E. W. und Lipman, D. J. (1990) J. 
MoL Biol., 215, 403-410), BLAST2 (Altschul, S. F., Madden, T. L, Schaffer, A. A., 
Zhang, J., Zhang, Z., Miller, W. und Lipman, D. J. (1997) Nucleic Acids 

Research 25 3389-3402) Oder FASTA (Pearson, W. R. und Lipman, D. J. (1988) 
20 Proc. Natl. Acad. Sci. USA 85 2444-2448), die homologen Sequenzen in 
verschiedenen nach Geweben geordneten (privaten Oder Offentlichen) EST- 
Bibliotheken bestimmt. Die dadurch ermittelten (relativen oder absoluten) Gewebe- 
spezifischen Vorkommenshaufigkeiten dieser Partial-Sequenz S werden als 
elektronischer Northern-Blot bezeichnet. 

25 

2.1.1 

Analog der unter 2.1 beschriebenen Verfahrensweise wurde die Sequenz Seq. ID 
30 No. 136 gefunden, die 15,6 .x starker im Endometriumtumor als im Normalgewebe 
vorkommt. 



Das Ergebnis ist wie folgt: 
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Elektronischer Northern fur SEQ. ID. NO: 57 



5 Blase 

Brust 
Duenndarm 
Eierstock 
Endokrines_Gewebe 
10 Gastrointestinal 

Gehirn 
Haematopoetisch 
Haut 
Hepatisch 

15 Herz 

Hoden 
Lunge 

Magen-Speiseroehre 
Muskel-Skelett 
20 Niere 

Pankreas 
Penis 
Prostata 
U t e ru s_Endome t r i urn 
25 Uterus_Myometrium 
Uterus_allgemein 
Brust-Hyperplasie 
Prostata-Hyperplasie 
Samenblase 

30 Sinnesorgane 
Weisse_Blutkoerperchen 
Zervix 



NORMAL 
%Haeuf igkeit 
0.0078 
0038 
0031 
0000 
0000 
0.0077 
0.0096 
0.0000 
0.0000 
0.0000 
0.0011 
0.0000 
0.0010 
0.0000 
0.0000 
0.0000 
0.0000 
0.0000 
0.0109 
0.0000 
0.0000 
0.0000 
0.0032 
0.0089 
0.0000 
0.0000 
0.0000 
0.0106 



TUMOR 

%Haeufigkeit 

0.0000 

0.0075 

0.0000 

0.0078 

0.0000 

0.0185 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0117 

0.0000 

0.0153 

0.0000 

0.0000 

0.0000 

0.0000 

0.0085 

0.1583 

0.0000 

0.1908 



Verhaeltnisse 
N/T T/N 
undef 0.0000 
0.5104 1. 9593 
undef 0.0000 
0.0000 undef 
undef undef 
0.4142 2.4145 
undef 0.0000 
undef undef 
undef undef 
undef undef 
undef 0.0000 
0.0000 undef 
undef 0.0000 
0.0000 undef 
undef undef 
undef undef 
undef undef 
undef undef 
1.2795 0.7815 
0. 0000 undef 
undef undef 
0.0000 undef 



35 



40 



45 



50 



Entwicklung 
Gastrointenstinal 
Gehirn 
Haematopoetisch 
Haut 
Hepatisch 
Herz-Blutgefaesse 
Lunge 
Nebenniere 
Niere 
Placenta 
Prostata 
Sinnesorgane 



FOETUS 

%Haeuf igkeit 

0.0000 

0.0028 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0072 

0.0000 

0.0124 

0.0000 

0.0000 

0.0000 



55 



60 



65 



Brust 
Eierstock_ n 
Eierstock_t 
Endokrines_Gewebe 
Foetal 
Gastrointestinal 
Haematopoetisch 
Haut-Muskel 
Hoden 
Lunge 
Nerven 
Prostata 
Sinnesorgane 
Uterus n 



NORMIERTE/SUBTRAHIERTE BIBLIOTHEKEN 

%Haeufigkeit 

0.0068 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.6000 

0.0050 

0.0000 

0.0000 

0.0000 
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2.2 Fish r-Test 

Urn zu entscheiden, ob eine Partial-Sequenz S eines Gens in einer Bibliothek fur 
5 Normal-Gewebe signifikant hSufiger Oder seltener vorkommt als in einer Bibliothek 
fur entartetes Gewebe, wird Fishers Exakter Test, ein statistisches 
Standardverfahren (Hays, W. L., (1991) Statistics, Harcourt Brace College 
Publishers, Fort Worth), durchgefuhrt. 

10 Die Null-Hypothese lautet: die beiden Bibliotheken kOnnen beziiglich der Haufigkeit 
zu S homologer Sequenzen nicht unterschieden werden. Fails die Null-Hypothese 
mit hinreichend hoher Sicherheit abgelehnt werden kann, wird das zu S gehorende 
Gen als interessanter Kandidat ftir ein Krebs-Gen akzeptiert, und es wird im 
nachsten Schritt versucht, eine Verlangerung seiner Sequenz zu erreichen. 

15 

Beispiel 3 



20 Automatische Verlangerung der Partial-Sequenz 



Die automatische Verlangerung der Partial-Sequenz S vollzieht sich in drei Schritten: 

25 1 . Ermittlung alter zu S homologen Sequenzen aus der Gesamtmenge der zur 
VerfUgung stehenden Sequenzen mit Hilfe von BLAST 

2. Assemblierung dieser Sequenzen mittels des Standardprogramms GAP4 
(Bonfield, J. K., Smith, K. F„ und Staden R. (1995), Nucleic Acids Research 23 

30 4992-4999) (Contig-Bildung). 

3. Berechnung einer Konsens-Sequenz C aus den assemblierten Sequenzen 



35 Die Konsens-Sequenz C wird im allgemeinen langer sein als die Ausgangssequenz 
S. Ihr elektronischer Northern-Blot wird demzufolge von dem fur S abweichen. Ein 
erneuter Fisher-Test entscheidet, ob die Alternativ-Hypothese der Abweichung von 
einer gleichmadigen Expression in beiden Bibliotheken aufrechterhalten werden 
kann. 1st dies der Fall, wird versucht, C in gleicher Weise wie S zu verlangern. Diese 

40 Iteration wird mit der jeweils erhaltenen Konsensus-Sequenzen C/ (/: Index der 
Iteration) fortgesetzt, bis die Alternativ-Hypothese verworfen wird (if Ho Exit; 
Abbruchkriterium I) Oder bis keine automatische Verlangerung mehr moglich ist 
(while Cj > Cm; Abbruchkriterium II). 

45 Im Fall des Abbruchkriteriums II bekommt man mit der nach der letzten Iteration 
vorliegenden Konsens-Sequenz eine komplette oder annShernd komplette Sequenz 
eines Gens, das mit hoher statistischer Sicherheit mit Krebs in Zusammenhang 
gebracht werden kann. 

so Analog der oben beschriebenen Beispiele konnten die in der Tabelle I beschriebenen 
Nukleinsaure-Sequenzen aus Uterustumorgewebe gefunden werden. 
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Ferner konnten zu den einzelnen Nukleinsaure-Sequenzen die Peptidsequenzen 
(ORF's) bestimmt werden, die in der Tabelle II aufgelistet sind, wobei wenigen 
Nukleinsaure-Sequenzen kein Peptid zugeordnet werden kann und einigen 
5 Nukleinsaure-Sequenzen mehr als ein Peptid zugeordnet werden kann. Wie bereits 
oben erwahnt, sind sowohl die ermittelten Nukleinsaure-Sequenzen, als auch die den 
Nukleinsaure-Sequenzen zugeordneten Peptid-Sequenzen Gegenstand der 
vorliegenden Erfindung. 

10 

Beispiel 4 

Kartierung der Nukleinsaure-Sequenzen auf dem humanen Genom 

15 Die Kartierung der humanen Gene erfolgte unter Verwendung des Stanford G3 
Hybrid-Panels (Stewart et al., 1997), der von Research Genetics, Huntsville, 
Alabama vertrieben wird. Dieses Panel besteht aus 83 verschiedenen genomischen 
DNAs von Mensch-Hamster Hybridzellinien und erlaubt eine Auflosung von 500 
Kilobasen. Die Hybridzellinien wurden durch Fusion von bestrahlten diploiden 

20 menschlichen Zellen mit Zellen des Chinesischen Hamsters gewonnen. Das 
Ruckhaltemuster der humanen Chromosomenfragmente wird mittels genspezifischer 
Primer in einer Polymerase-Kettenreaktion bestimmt und mit Hilfe der vom Stanford 
RH Server verfugbaren Software analysiert (http://www.stanford.edu/RH/rhserver_ 
form2.html). Dieses Programm bestimmt den STS-Marker, der am nachsten zum 

25 gesuchten Gen liegt. Die entsprechende zytogenetische Bande wurde unter 
Verwendung des "Mapview" -Programms der Genome Database (GDB), 
(http://gdbwww.dkfz-heidelberg.de) bestimmt. 

Neben dem kartieren von Genen auf dem menschlichen Cromosomensatz durch 
verschiedene experimented Methoden ist es moglich die Lage von Genen auf 

30 diesem durch bioinformatische Methoden zu bestimmen. Dazu wurde das bekannte 
Programm e-PCR eingesetzt (Schuler GD (1998) Electronic PCR: bridging the gap 
between genome mapping and genome sequencing. Trends Biotechnol 16; 456-459, 
Schuler GD (1997). Sequence mapping by electronic PCR. Genome Res 7; 541- 
550). Die dabei eingesetzte Datenbank entspricht nicht mehr der in der Literatur 

35 angegebenen, sender ist eine Weiterentwicklung, welche Daten der Offentlichen 
Datenbank RHdb (http://www.ebi.ac.uk/RHdb/index.html) einschlielit. Analog zu der 
Kartierung durch die Hybrid-Panels erfolgte eine Auswertung der Ergebnisse mit der 
obengenannten Software und der Software des Whitehead-lnstitutes 
(http://carbon.wi.mit.edu:8000/cgi-bin/contig/rhmapper.pl). 

40 
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Funktion 


O.cuniculus lambda-crystailin mRNA | 


Mus musculus flotiltin | 


Mouse glycerol-3-phosphate acyitransferase | 


Mouse clathrin-associated protein (AP47) 


Lycopersicon esculentum biotin-containing subunit of 
methyicrotonyl-CoA carboxylase 


Leucine aminopeptidase, bovine 


I Klebsiella pneumoniae possible RNA heiicase (deaD) | 


| Human mammaglobin Homolog | 


Human DNA sequence from PAC 138A5 on chromosome 

X 


| Human DNA sequence from clone 230G1 1 


I Human DNA sequence from clone 21 7C2 1 


| Human Cosmid Clone 26a 1 1 


I Homolog zu Human chromosome 3p21 .1 gene sequence | 


I Homo sapiens DNA from chromosome 19-cosmid f21246 1 


| H.sapiens mRNA for Ptg-1 protein | 


I H.sapiens CpG island DNA genomic Mse1 fragment | 


I H.sapiens (TL5) mRNA from LNCaP cell line | 


| Genomic sequence from Human 9q34 1 


I Drosophila melanogaster misato gene | 


| Chicken mRNA for vitellogenin I 


I Caenorhabditis elegans DNA from clone F31 D4 


| Caenorhabditis elegans cosmid ZK863 


| Caenorhabditis elegans cosmid ZK863 


| Caenorhabditis elegans cosmid ZK596 


I Caenorhabditis elegans cosmid T26A5 


| Caenorhabditis elegans cosmid T21 G5 


| Caenorhabditis elegans cosmid F56D5 


I Caenorhabditis elegans cosmid F25D7 


| Caenorhabditis elegans cosmid F08C6 


1 C.botulinum bont (partial) and ntnh genes 
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Funktion 


Bovine mRNA fragment for 49 kDa subunit of 
mitochondrial NADH:ubiquinone oxidoreductase (EC 

1.6.5.3) 


Bos taurus (clone pTKD7) dopamine and cyclic AMP- 
regulated neuronal phosphoproteln (DARPP-32) 


A.thaliana mRNA for RNA helicase | 


A. thaiiana glydne-rich protein {clone atGRP-4} | 


Saccharomyces cerevisiae Grd19p (GRD19) 


Saccharomyces cerevisiae chromosome XII cosmid 9328 


S;pombe chromosome 1 cosmid c13D6 1 


Rattus norvegicus RNA helicase with arginine-serine-rich 

domain 


| Rattus norvegicus matrilysin (MMP-7) mRNA | 


| Rattus norvegicus Diphor-1 1 


Human herpesvirus-7 (HHV7) Jl, G protein- coupled 

receptor (GCR) 


I Homolog zu Human synapsin 1 (SYN1) 


| Homolog zu Human PAX3 gene 


I Homolog zu Human multiple exostosis 2 (EXT2) 


Homolog zu Homo sapiens integrin variant beta4E 

(ITGB4) 


Homolog zu Homo sapiens hCPE-R mRNA for CPE- 
receptor 


I Homolog zu Hisapiens mRNA for deoxyguanosine kinase 


I Caenorhabditis elegans cosmid Y48E1 B 


Caenorhabditis elegans cosmid T21D12 


| Caenorhabditis elegans cosmid R107 


| Caenorhabditis elegans cosmid M04C9 


| Bovine opsin 


| unbekannt 


| unbekannt 


| unbekannt 
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Veriangerung von Seq. ID No. 43 1 


Veriangerung von Seq. ID No. 44 1 


Veriangerung von Seq. ID No. 52 1 


Veriangerung von Seq. ID No. 54 1 


Veriangerung von Seq. ID No. 55 1 
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Die erfinderischen Nukleinsaure-Sequenzen Seq. ID No. 1 bis Seq. ID No. 141 der 
ermittelten Kandidatengene und die ermittelten Aminosaure-Sequenzen Seq. ID No. 
142-528 werden in dem nachfolgenden Sequenzprotokoll beschrieben. 

5 

Sequenzprotokoll 

(1) ALLGEMEINE INFORMATION: 

10 (i) ANMELDER: 

(A) NAME: metaGen - Gesellschaft fur Genomforschung mbH 

(B) STRASSE: Ihnestrasse 63 

(C) STADT: Berlin 

(E) LAND: Deutschland 
15 (F) POST CODE (ZIP): D-14195 

(G) TELEFON: (030)-8413 1673 

(H) TELEFAX: (030)-8413 1674 



20 (ii) TITEL DER ERFINDUNG: Menschliche Nukleinsaure-Sequenzen aus 

Uterustumorgewebe 

(iii) Anzahl der Sequenzen: 622 

25 (iv) COMPUTER READABLE FORM: 

(A) MEDIUM TYPE: Floppy disk 

(B) COMPUTER: IBM PC compatible 

(C) OPERATING SYSTEM: PC-DOS/MS-DOS 

(D) SOFTWARE: Patentln Release #1 .0, Version #1 .25 (EPO) 

30 

(2) INFORMATION ClBER SEQ ID NO: : 

(i) SEQUENZ CHARAKTERISTIK: 
(A) LANGE: 1046 Basenpaare 

35 (B) TYP: Nukleinsaure 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 

(ii) MOLEKOLTYP: aus einzelnen ESTs durch Assemblierung und Editierung 
40 hergestellte partielle cDNA 

(iii) HYPOTHETISCH: NEIN 
(iii) ANTI-SENSE: NEIN 

45 

(vi) HERKUNFT: 

(A) ORGAN ISMUS: MENSCH 
(C) ORGAN: 

50 (vii) SONSTIGE HERKUNFT: 

(A) BIBLIOTHEK: cDNA library 



10 



50 



218 
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(Hi) ANTI-SENSE: NEIN 

(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 
(C) ORGAN: 

(vii) SONSTIGE HERKUNFT: 

(A) BIBLIOTHEK: cDNA library 

(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO: 56 



gcagccggag taagatggcg gcgctgaggg ctttgtgcgg cttccggggc gtcgcggccc 60 
aggtgctgcg gcctggggct ggagtccgat tgccgattca gcccagcaga ggtgttcggc 120 

15 agtggcagcc agatgtggaa tgggcacagc agtttggggg agctgttatg tacccaagca 180 
aagaaacagc ccactggaag cctccacctt ggaatgatgt ggaccctcca aaggacacaa 24 0 
ttgtgaagaa cattaccctg aactttgggc cccaacaccc agcagcgcat ggtgtcctgc 300 
gactagtgat ggaattgagt ggggagatgg tgcggaagtg tgatcctcac atcgggctcc 360 
tgcaccgagg cactgagaag ctcattgaat acaagaccta tcttcaggcc cttccatact 420 

20 ttgaccggct agactatgtg tccatgatgt gtaacgaaca ggcctattct ctagctgtgg 480 
agaagttgct aaacatccgg cctcctcctc gggcacagtg gatccgagtg ctgtttggag 540 
aaatcacacg tttgttgaac cacatcatgg ctgtgaccac acatgccctg gaccttgggg 600 
ccatgacccc tttcttctgg ctgtttgaag aaagggagaa gatgtttgag ttctacgagc 660 
gagtgtctgg agcccgaatg catgctgctt atatccggcc aggaggagtg caccaggacc 720 

25 taccccttgg gcttatggat gacatttatc agttttctaa gaacttctct cttcggcttg 780 
atgagttgga ggagttgctg accaacaata ggatctggcg aaatcggaca attgacattg 840 
gggttgtaac agcagaagaa gcacttaact atggttttag tggagtgatg cttcggggct 900 
caggcatcca gtgggacctg cggaagaccc agccctatga tgtttacgac caggttgagt 960 
ttgatgttcc tgttggttct cgaggggact gctatgatag gtacctgtgc cgggtggaggl020 

30 agatgcgcca gtccctgaga attatcgcac agtgtctaaa caagatgcct cctggggaga!080 
tcaaggttga tgatgccaaa gtgtctccac ctaagcgagc agagatgaag acttccatggll40 
agtcactgat tcatcacttt aagttgtata ctgagggcta ccaagttcct ccaggagccal200 
catatactgc cattgaggct cccaagggag agtttggggt gtacctggtg tctgatggca!260 
gcagccgccc ttatcgatgc aagatcaagg ctcctggttt tgcccatctg gctggtttggl320 

35 acaagatgtc taagggacac atgttggcag atgtcgttgc catcataggt acccaagatal380 
ttgtatttgg agaagtagat cggtgagcag gggagcagcg tttgatcccc cctgcctatcl440 
agcttcttct gtggagcctg ttcctcactg gaaattggcc tctgtgtgtg tgtgtgtgtgl500 
tgtgtgtgtg tgtgtgtatg ttcatgtaca cttggctgtc aggctttctg tgcatgtactl560 
aaaaaaggag aaattataat aaattagccg tcttgcgccc ctaggcctaa aaaaaaaaaal620 

40 aaaaaaaaaa aaaaaaaaaa aaaaaaa 1647 



(2) INFORMATION ClBER SEQ ID NO: 57; 



45 (i) SEQUENZ CHARAKTERISTIK: 

(A) LANGE: 1166 Basenpaare 

(B) TYP: Nukleinsaure 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 



55 



(ii) MOLEK0LTYP: aus einzelnen ESTs durch Assemblierung und Editierung 

hergestellte partielle cDNA 

(iii) HYPOTHETISCH: NEIN 
(iii) ANTI-SENSE: NEIN 
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(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 
(C) ORGAN: 

5 

(vii) SONSTIGE HERKUNFT: 

(A) BIBLIOTHEK: cDNA library 



(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO: 57 

10 

cgccgcctgc gcggggggga gcccagcaca gaccgccgcc gggaccccga gtcgcgcacc 60 
ccagccccac cgcccacccc gcgcgccatg gaccccaagg accgcaagaa gatccagttc 120 
tcggtgcccg cgccccctag ccagctcgac ccccgccagg tggagatgat ccggcgcagg 180 
agaccaacgc ctgccatgct gttccggctc tcagagcact cctcaccaga ggaggaagcc 240 

15 tccccccacc agagagcctc aggagagggg caccatctca agtcgaagag acccaacccc 300 
tgtgcctaca caccaccttc gctgaaagct gtgcagcgca ttgctgagtc tcacctgcag 360 
tctatcagca atttgaatga gaaccaggcc tcagaggagg aggatgagct gggggagctt 420 
cgggagctgg gttatccaag agaggaagat gaggaggaag aggaggatgc agccaggctg 480 
aagtcctgaa ggtcatcagg cagtctgctg ggcaaaagac aacctgtggc cagggtctgg 54 0 

20 aagggccctg ggagcgccca ccccctctgg atgagtccga gagagatgga ggctctgagg 600 
accaagtgga agacccagca ctaagtgagc ctggggagga acctcagcgc ccttccccct 660 
ctgagcctgg cacataggca cccagcctgc atctcccagg aggaagtgga ggggacatcg 720 
ctgttcccca gaaacccact ctatcctcac cctgttttgt gctcttcccc tcgcctgcta 780 
gggctgcggc ttctgacttc tagaagacta aggctggtct gtgtttgctt gtttgcccac 840 

25 ctttggctga tacccagaga acctgggcac ttgctgcctg atgcccaccc ctgccagtca 900 
ttcctccatt cacccagcgg gaggtgggat gtgagacagc ccacattgga aaatccagaa 960 
aaccgggaac agggatttgc ccttcacaat tctactcccc agatcctctc ccctggacacl020 
aggagaccca cagggcagga ccctaagatc tggggaaagg aggtcctgag aaccttgaggl080 
tacccttaga tccttttcta cccactttcc tatggaggat tccaagtcaa catttgtctgll40 

30 aacggcttgt aacagggttc aggttg 1166 



(2) INFORMATION ClBER SEQ ID NO: 58: 

(i) SEQUENZ CHARAKTERISTIK: 
35 (A) LANGE: 487 Basenpaare 

(B) TYP: NukleinsSure 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 



40 (ii) MOLEK0LTYP: aus einzelnen ESTs durch Assemblierung und Editierung 
hergestellte partielle cDNA 



(iii) HYPOTHETISCH: NEIN 



45 (iii) ANTI-SENSE: NEIN 



(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 
(C) ORGAN: 

50 

(vii) SONSTIGE HERKUNFT: 

(A) BIBLIOTHEK: cDNA library 

(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO: 58 
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(2) INFORMATION ClBER SEQ ID NO: 310: 

(A) LANGE: 100 Aminosauren 

(B) TYP: Protein 

5 (C) STRANG: einzel 

(D) TOPOLOGIE: linear 

(ii) MOLEKClLTYP: ORF 

io (Hi) HYPOTHETISCH: ja 



(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 

15 : 

(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO 310: 

SQDTMRCWVL GPKVQGNVLH NCVLWRVHII PRWRLPVGCF FAWVHNSSPK LLCPFHIWLP 60 
20 LPNTSAGLNR QSDSSPRPQH LGRDAPEAAQ SPQRRHLTPA 100 

(2) INFORMATION UBER SEQ ID NO: 311: 

(A) LANGE: 162 Aminosauren 
25 (B) TYP: Protein 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 

(ii) MOLEKClLTYP: ORF 

30 

(iii) HYPOTHETISCH: ja 



(vi) HERKUNFT: 
35 (A) ORGANISMUS: MENSCH 



(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO 311: 

40 RRLRGGEPST DRRRDPESRT PAPPPTPRAM DPKDRKKIQF SVPAPPSQLD PRQVEMIRRR 60 
RPTPAMLFRL SEHSSPEEEA SPHQRASGEG HHLKSKRPNP CAYTPPSLKA VQRIAESHLQ120 
SISNLNENQA SEEEDELGEL RELGYPREED EEEEEDAARL KS 162 

(2) INFORMATION UBER SEQ ID NO: 312: 

45 

(A) LANGE: 154 Aminosauren 

(B) TYP: Protein 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 

50 

(ii) MOLEKULTYP: ORF 



(iii) HYPOTHETISCH: ja 
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(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 

5 : 

(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO 312: 

VSLGRNLSAL PPLSLAHRHP ACISQEEVEG TSLFPRNPLY PHPVLCSSPR LLGLRLLTSR 60 
10 RLRLVCVCLF AHLWLIPREP GHLLPDAHPC QSFLHSPSGR WDVRQPTLEN PENREQGFAL120 
HNSTPQILSP GHRRPTGQDP KIWGKEVLRT LRYP 154 

(2) INFORMATION GBER SEQ ID NO: 313: 

15 (A) LANGE: 101 Aminosauren 

(B) TYP: Protein 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 

20 (ii) MOLEKOLTYP: ORF 
(Hi) HYPOTHETISCH: ja 



25 (vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 



(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO 313: 

30 

AQGLGLFDLR WCPSPEALWW GEASSSGEEC SESRNSMAGV GLLRRIISTW RGSSWLGGAG 60 
TENWIFLRSL GSMARGVGGG AGVRDSGSRR RSVLGSPPRR R 101 

(2) INFORMATION GBER SEQ ID NO: 314: 

(A) LANGE: 162 Aminosauren 

(B) TYP: Protein 

(C) STRANG: einzel 

(D) TOPOLOGIE: linear 

(ii) MOLEKOLTYP: ORF 

(iii) HYPOTHETISCH: ja 

45 

(vi) HERKUNFT: 

(A) ORGANISMUS: MENSCH 



(xi) SEQUENZ-BESCHREIBUNG: SEQ ID NO 314: 

SDRWTCSPPL GARSMSRFPA VAGRAPRRQE EGERSRDLQE ERLSAVCIAD REEKGCTSQE 60 
GGTTPTFPIQ KQRKKI IQAV RDNSFLIVTG NTGSGKTTQL PKYLYEAGFS QHGMIGVTQP120 
RKVAAISVAQ RVAEEMKCTL GSKVGYQVRF DDCSSKETAI KY 162 
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Patentanspruch 

1 . Eine Nukleinsaure-Sequenz, die ein Genprodukt oder ein Teil davon kodiert, 
umfassend 

5 

a) eine Nukleinsaure-Sequenz, ausgewahlt aus der Gruppe Seq ID No 1-126 und 
Seq. ID No 531-552, 554, 555. 

io b) eine allelische Variation der unter a) genannten Nukleinsdure- 
Sequenzen 

oder 

is c) eine Nukleinsaure-Sequenz, die komplementar zu den unter a) oder b) genannten 
Nukleinsaure-Sequenzen ist. 

2. Eine Nukleinsaure-Sequenz gemaft einerder Sequenzen Seq ID Nos1 - 126 und 
20 Seq. ID No 531-552, 554, 555 oder eine komplementare oder allelische Variante 

davon. 



3. NukleinsSure-Sequenz Seq. ID No. 1 bis Seq. ID No. 141 und Seq. ID No 531- 
25 552, 554, 555, dadurch gekennzeichnet, daR sie im Uterustumorgewebe erhoht 

exprimiert sind. 

4. BAC, PAC und Cosmid-Klone, enthaltend funktionelle Gene und ihre 
30 chromosomale Lokalisation, entsprechend den Sequenzen Seq. ID. No. 1 bis 

Seq. ID No. 141 und Seq. ID No 531-552, 554, 555, zur Verwendung als Vehikel 
zum Gentransfer. 



3S 5. Eine Nukleinsaure-Sequenz gemaft den AnsprQchen 1 bis 4, dadurch 
gekennzeichnet, daft sie eine 90% ige Homologie zu einer humanen 
Nukleinsaure-Sequenz aufweist. 

40 6. Eine Nukleinsaure-Sequenz gemaft den AnsprQchen 1 bis 4, dadurch 
gekennzeichnet, daft sie eine 95% ige Homologie zu einer humanen 
Nukleinsaure-Sequenz aufweist. 

45 7. Eine Nukleinsaure-Sequenz, umfassend einen Teil der in den AnsprQchen 1 bis 6 
genannten Nukleinsaure-Sequenzen, in solch einer ausreichenden GrSfte, daft 
sie mit den Sequenzen gemaft den AnsprQchen 1 bis 6 hybridisieren. 
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8. Ein NukleinsSure-Sequ nz gemaii den Anspriichen 1 bis 7, dadurch 
gekennzeichnet, dali die Grflfie des Fragments eine Lange von mindestens 50 
bis 4500 bp aufweist. 

5 

9. Eine NukleinsSure-Sequenz gemaii den Anspriichen 1 bis 7, dadurch 
gekennzeichnet, dad die Grdlie des Fragments eine Lange von mindestens 50 
bis 4000 bp aufweist. 

10 

10. Eine Nukleinsdure-Sequenz gemaii einem der Anspriiche 1 bis 9, die mindestens 
eine Teilsequenz eines biologisch aktiven Polypeptids kodiert. 



15 11. Eine Expressionskassette, umfassend ein Nukleinsaure-Fragment oder eine 
Sequenz gemaii einem der Anspriiche 1 bis 9 ( zusammen mit mindestens einer 
Kontroll- oder regulatorischen Sequenz. 



20 12. Eine Expressionskassette, umfassend ein Nukleinsaure-Fragment oder eine 
Sequenz gemaii Anspruch 1 1 , worin die Kontroll- oder regulatorische Sequenz 
ein geigneter Promotor ist. 



25 13. Eine Expressionskassette gemaii einem der Anspruche 11 und 12, dadurch 
gekennzeichnet, dali die auf der Kassette befindlichen DNA-Sequenzen ein 
Fusionsprotein kodieren, das ein bekanntes Protein und ein biologisch aktives 
Polypeptid-Fragment umfafit. 

30 

14.Verwendung der Nukleinsaure-Sequenzen gemaii den Anspriichen 1 bis 10 zur 
Herstellung von Vollangen-Genen. 



35 15. Ein DNA-Fragment, umfassend ein Gen, das aus der Verwendung gemaii 
Anspruch 14 erhaltlich ist. 



16.Wirtszelle, enthaltend als heterologen Teil ihrer exprimierbaren genetischen 
40 Information ein Nukleinsaure-Fragment gemaii einem der Anspriiche 1 bis 10. 



17. Wirtszelle gemaii Anspruch 16, dadurch gekennzeichnet, daft es ein 
prokaryontisches oder eukaryontische Zellsystem ist. 

45 

18. Wirtszelle gemaii einem der AnsprOche 16 oder 17, dadurch gekennzeichnet, 
dali das prokaryontische Zellsystem E. coli und das eukaryontische Zellsystem 
ein tierisches, humanes oder Hefe-Zellsystem ist. 

50 
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19. Ein Verfahren zur H rst Hung eines Polypeptids Oder eines Fragments, dadurch 
gekennzeichnet, daft die Wirtszellen gemaft den Anspruchen 16 bis 18 kultiviert 
werden. 

5 

20. Ein Antikorper, der gegen ein Polypeptid Oder ein Fragment gerichtet ist, welches 
von den Nukleinsauren der Sequenzen Seq. ID No. 1 bis Seq. ID No. 141 und 
Seq. ID No 531-552, 554, 555 kodiert wird, das gemaft Anspruch 19 erhaitlich ist. 

10 

21 . Ein Antikorper gemaft Anspruch 20, dadurch gekennzeichnet, daft er monoklonal 
ist. 



is 22. Ein Antikorper gemaft Anspruch 20 dadurch gekennzeichnet, daft er ein Phage- 
Display-Antikorper ist. 



23. Polypeptid-Teilsequenzen, gemaft den Sequenzen Seq. ID Nos. Seq. 142-528 
20 und Seq. ID Nos. Seq. 561-575, 577-625, 630-635. 



24. Polypeptid-Teilsequenzen gemaft Anspruch 23, mit mindestens 80%iger 
Homologie zu diesen Sequenzen. 

25 

25. Ein aus einem Phage-Display hervorgegangenen Polypeptid, welches an die 
Polypeptid-Teilsequenzen gemaft Anspruch 23 binden kann. 

30 

26. Polypeptid-Teilsequenzen gemaft Anspruch 23, mit mindestens 90%iger 
Homologie zu diesen Sequenzen. 



35 27.Verwendung der Polypeptid-Teilsequenzen gemaft den Sequenzen Seq. ID No. 
142-528 und Seq. ID Nos. Seq. 561-575, 577-625, 630-635, als Tools zum 
Auffinden von Wirkstoffen gegen den Uterustumor. 



40 28.Verwendung der Nukleinsaure-Sequenzen gemaft den Sequenzen Seq. ID No. 1 
bis Seq. ID No. 141 und Seq. ID No 531-552, 554, 555 zur Expression von 
Polypeptides die als Tools zum Auffinden von Wirkstoffen gegen den 
Endometriumtumor verwendet werden kQnnen. 

45 

29.Verwendung der Nukleinsaure-Sequenzen Seq. ID No. 1 bis Seq. ID No. 141 und 
Seq. ID No 531-552, 554, 555 in sense oder antisense Form. 
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30. Verwendung der Polypeptid-Teilsequenzen Seq. ID No. 142-528 und Seq. ID 
Nos. Seq. 561-575, 577-625, 630-635 als Arzneimittel in der Gentherapie zur 
Behandlung des Endometriumtumor. 

5 

31. Verwendung der Polypeptid-Teilsequenzen Seq. ID No. 142-528 und Seq. ID 
Nos. Seq. 561-575, 577-625, 630-635, zur Herstellung eines Arzneimittels zur 
Behandlung gegen den Endometriumtumor. 

10 

32. Arzneimittel, enthaltend mindestens eine Polypeptid-Teilsequenz Seq. ID No. 
142-528 und Seq. ID Nos. Seq. 561-575, 577-625, 630-635. 



15 33. Eine NukleinsSure-Sequenz gemaii den AnsprUchen 1 bis 10, dadurch 
gekennzeichnet, daft es eine genomische Sequenz ist. 



34. Eine Nukleinsaure-Sequenz gemali den Ansprtichen 1 bis 10, dadurch 
20 gekennzeichnet, dafi es eine mRNA-Sequenz ist. 



35. Genomische Gene, ihre Promotoren, Enhancer, Silencer, Exonstruktur, 
Intronstruktur und deren Spleilivarianten, erhaitlich aus den cDNAs der 
25 Sequenzen Seq. ID No. 1 bis Seq. ID No. 141 und Seq. ID No 531-552, 554, 555. 



36. Verwendung der genomischen Gene gemaft Anspruch 35, zusammen mit 
geeigneten regulativen Elementen. 

30 

37. Verwendung gemSli Anspruch 36, dadurch gekennzeichnet, dafi das regulative 
Element ein geeigneter Promotor und/ Oder Enhancer ist. 



35 



38. Eine NukleinsSure-Sequenz gemaii den AnsprOchen 1 bis 7, dadurch 
gekennzeichnet, daft die Gr6fte des Fragments eine LSnge von mindestens 300 
bis 3500 bp aufweist. 



WO 99/54461 



PCT/DE99/01174 



1/10 



Systematische Gen-Suche in der Incyte LifeSeq Datenbank 



Normalgewebe 
-50.000 einzelne ESTs 



Prioritatsliste 




hoch 




Prostata 




H Brust 




V Eterstock 




V Blase 




1 Gebarmutter 




niedrfg 





f Tumorgewebe 
1-50.000 einzelne ESTs 




Iterative 
Assemblierung 
rnit 
steigender 
NichtGbereinstimmung 





-8.000 Contigs 
+ 

25.000 Einzelsequenzen 



Vergleich der 
Datenbanken 



f -8.000 Contigs 
V-25.000 Einzelsequenzen 



normalgewebsspezifisch 
(erwartet: 100-5QO) 



/ / unspezifisch \ \ 
I I exprimierte ) J 

1 4 



tumorgewebsspezifisch 
(erwartet: 100-500) 



Gene von Interesse 



Fig. 1 

BERICHTIGTES BLATT (REGEL 91) 
ISA/EP 
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Prinzip der EST-Assemblierung 

-50.000 ESTs pro Gewebe 

I_ 

NichtQbereinstimmung 
mit GAP4 (Staden) 

Contigs Einzelsequenzen 




In Anzahl und Lange 
zunehmenden Contigs 



Iterative Assemblierung 

mit steigender 
NichtQbereinstimmung 
(1%, 2%, 4%) 



5000-6000 Contigs 



v 



-25.000 ubrige 
Einzelsequenzen 



-30.000 Konsensus- 
sequenzen pro Gew be 



Fig. 2a 

BERICHTIGTES BLATT (REGEL 91) 
ISA/EP 
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-50.000 ESTs 
eines Gewebes 
(z.B.: Uterus Tumor) 



GAP4 Assemblierung 1 . Runde: 

minimale anfangliche 
Obereinstimmung: 20 
maximate Anzahl von eingeftigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtilbereinstimmung; 0 



GAP4-Datenbank 1 : 
Contigs 1 

Einzelsequenzen 1 





GAP4 Assemblierung 2. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingeftigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 1 



GAP4-Datenbank 2: 
Contigs 2 

Einzelsequenzen 2 




GAP4 Assemblierung 3. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingeftigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 2 



GAP4-Datenbank 3: 
Contigs 3 

Einzelsequenzen 3 



nicht 
assemblierte 
ESTs 





nicht 
assemblierte 
ESTs 





nicht 
assemblierte 
ESTs 



Fig. 2b1 
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ISA/EP 
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GAP4-Datenbank 3 




nicht 
assemblierte 
ESTs 



Konsensus 3 



GAP4 Assemblierung 4. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingefiigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung; 2 





nicht 
assemblierte 
ESTs 



Konsensus 4 



GAP4 Assemblierung 5. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingefiigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 4 





nicht 
assemblierte 
ESTs 5 



Konsensus 5 



Einzelsequenzen 5 



Fig. 2b2 
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Konsensus 3 



Einzelsequenzen 5 



Konsensus 4 



Konsensus 5 



nicht 
assemblierte 
ESTs5 



GAP4 Assemblierung 6. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximate Prozente von 
Nichttibereinstimmung: 4 




assemblierte Datenbank 
eines spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Fig. 2b3 



BERICHTIGTES BLATT (KEGEL 91) 
ISA/EP 
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assemblierte Datenbank 
eines spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Konsensus 6 




Datenbank eines 
spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Datenbank eines zweiten 
spezifischen Gewebes 
(z.B.: Uterus Normal) 




GAP4 Assemblierung 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingefiigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
NichtQbereinstimmung: 4 





Tumor-Gewebs- 
spezifische 
ESTs 



nicht Gewebs- 
spezifische 
ESTs 



Normal-Gewebs- 
spezifische 
ESTs 



Fig. 2b4 
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ISA/EP 
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Fig. 3 
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Gene von Interesse 



Bestimmung der 
gewebsspezifischen 
Expression uber 
elektronischen Northern 
(INCYTE LifeSeq und 
offentliche EST 
Datenbanken) 



Kandidatengene fur 
Tumorsuppressoren Oder 
Tumoraktivatoren 



Fig. 4a 
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ISA/EP 
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Partielle 
cDNA 
Sequenz z.B. 
EST o. Contig 

s 





.....GCCTCAAGTTATC 




WHILE C > C , 




i * 


r 



Elektronischer Northern-Blot 



Fishers Exakter Test 



IF He 



EXIT 



Automatische Verlangerung 




ATGTCCTAGCCTCAAGTTATCAGATGCAA, 



Fig. 4b 



BERICHTIGTES BLATT (REGEL 91) 
ISA/EP 
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Isolieren von genomischen BAC und PAC Klonen 



Chromosomale Klon-Lokalisation uber FISH 



t : mm i * 



/ 

Hybridisierungssignal 




Sequenzierung von Klonen, die in Regionen 
lokalisiert sind, die chromosomale Deletionen 

in Prostata- und Brustkrebs aufweisen, 
fuhrt zur Identifizierung von Kandidatengenen 

— ■ — 

Exon Intron 



Bestatigung der Kandidatengene durch 
Screening von Mutationen und/oder 
Deletionen in Krebsgeweben 

Fig. 5 
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